Image as Set of Points
ICLR23 oral(top-5%)
Keywords
画像をどう解釈するかで,特徴抽出の方法は大きく異なる
クラスタリングベースで行う研究
ConvNets(畳み込み)
矩形で並べられた画素集合として捉えている
sliding window方式で,局所的な特徴を抽出する
局所性・平行移動等価性といった帰納バイアスを含む
ViTs
画像をパッチの連続として扱う
globalなself-attentionとして,パッチから情報を適応的に混ぜている
CnvNetsに固有であった帰納バイアスを捨てた中,十分な性能
画像をグリッドで読み込み,シーケンスの相互関係を探索する.
MLP-Mixer,GNNなどでも同様の性能を達成できることが示されている.
各画素をRGBXYの5次元のデータ点として考慮
点群として扱うことができ,V&LのRepresentation Learningに貢献可能
一般的なVisual Representationのためのクラスタリングを導入したのがContributtion
Metaformer,Hierarical Representationといったフレームワークからのphilosophyも継承している
あるベンチマークではConvNetsやViTにCompetitive or Overwhelmである